Detección de plagio translingüe utilizando el diccionario estadístico de BabelNet

نویسندگان

  • Marc Franco-Salvador
  • Parth Gupta
  • Paolo Rosso
چکیده

In recent years there have been important advances in the field of automatic plagiarism detection. One variant is cross-language plagiarism detection, which tries to detect plagiarism between documents in different languages. Most of the existing approaches to this task make use of statistical dictionaries to deal with the translations of words in the documents. A statistical dictionary provides, for a given word, the list of possible translations with their respective probabilities. The objective of this paper is to analyze the performance of the statistical dictionary of multilingual semantic network Babelnet for cross-language plagiarism detection. In the evaluation we compare its results with those offered by a statistical dictionary trained by the well-known IBM M1 aligment model, both using state-of-the-art model CL-ASA as a base. The results of the experiments indicate that Babelnet is a good alternative as statistical dictionary.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Efecto del pre-procesamiento en la detección automática de plagio para PAN 2014 y PAN 2015

Resumen. Dentro de la detección automática de plagio, el alineamiento de texto en [1] lo define como el descubrimiento de fragmentos similares de texto entre dos documentos. La cual puede utilizarse en: detección de plagio, identificación de autoría, detección de reúso de texto, recuperación de información, entre muchas otras. El pre-procesamiento consta de diversas técnicas que se aplica en la...

متن کامل

Comparación de Representaciones Interválicas Hansonianas para Recuperación de Información Musical

La similitud melódica es un concepto importante a considerar en la recuperación de información musical. Algunas de las posibles aplicaciones son sistemas basados en contenido desarrollados para administración de derechos de autor, detección de plagio de ideas ya expuestas por un artista en el pasado, la asistencia a la composición, etc. Existen varias técnicas expuestas en similitud melódica qu...

متن کامل

Clasificación de frases obscenas o vulgares dentro de tweets

Resumen. Se propone una metodología para la detección frases obscenas y vulgares en los tweets, debido a que México es uno países donde se usa mucho el doble sentido para comunicarse. La metodología propuesta se apoya en un diccionario de mexicanismos etiquetado manualmente por expertos. Se pudo detectar que las palabras obscenas y vulgares son las que más se emplean y los estados del país que ...

متن کامل

Herramienta de apoyo en la detección de reutilización de código fuente

Resumen. El acto de tomar parcial o totalmente contenidos generados por otras personas, y presentarlos como propios, sin dar el crédito correspondiente a los autores, es una forma indebida de reutilización de contenidos, considerada como plagio. Desafortunamente, en la actualidad, dada la amplia disponibilidad de contenidos a través de Internet, esta práctica se ha incrementado. La gran mayoŕıa...

متن کامل

Secuencias de alarmas para detección y diagnóstico de fallos

1  Resumen-En este artículo se habla de las secuencias de las alarmas de una planta industrial y cómo pueden ser utilizadas para detectar y diagnosticar fallos. Este trabajo parte del Gerenciamiento de Alarmas, un tema que busca reducir el número de alarmas desplegadas a los operadores, contribuyendo a la apropiada detección y diagnóstico de fallos. Se muestran algunas técnicas de búsqueda cuy...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:
  • Computación y Sistemas

دوره 16  شماره 

صفحات  -

تاریخ انتشار 2012